本文研究了如何使用大型语言模型 (LLM) 从全篇材料科学研究论文中提取聚合物纳米复合材料 (PNC) 的样本列表。挑战在于 PNC 样本的复杂性,它们在整个文本中散布着许多属性。注释 PNC 上的详细信息的复杂性限制了数据的可用性,由于创建全面的命名实体跨度注释的挑战,传统的文档级关系提取技术变得不切实际。为了解决这个问题,我们为这项任务引入了一个新的基准和评估技术,并以零样本方式探索了不同的提示策略。我们还结合了自一致性来提高性能。我们的研究结果表明,即使是先进的 LLM 也很难从一篇文章中提取所有样本。最后,我们分析了在这个过程中遇到的错误,将它们分为三个主要挑战,并讨论了未来研究中克服这些挑战的潜在策略。
主要关键词